Emerging Properties in Unified Multimodal Pretraining

Deng, Chaorui; Zhu, Deyao; Li, Kunchang; Gou, Chenhui; Li, Feng; Wang, Zeyu; Zhong, Shu; Yu, Weihao; Nie, Xiaonan; Song, Ziang; Shi, Guang; Fan, Haoqi

Computer Science > Computer Vision and Pattern Recognition

arXiv:2505.14683 (cs)

[Submitted on 20 May 2025 (v1), last revised 23 May 2025 (this version, v2)]

Title:Emerging Properties in Unified Multimodal Pretraining

Authors:Chaorui Deng, Deyao Zhu, Kunchang Li, Chenhui Gou, Feng Li, Zeyu Wang, Shu Zhong, Weihao Yu, Xiaonan Nie, Ziang Song, Guang Shi, Haoqi Fan

View PDF

Abstract:Unifying multimodal understanding and generation has shown impressive capabilities in cutting-edge proprietary systems. In this work, we introduce BAGEL, an open-source foundational model that natively supports multimodal understanding and generation. BAGEL is a unified, decoder-only model pretrained on trillions of tokens curated from large-scale interleaved text, image, video, and web data. When scaled with such diverse multimodal interleaved data, BAGEL exhibits emerging capabilities in complex multimodal reasoning. As a result, it significantly outperforms open-source unified models in both multimodal generation and understanding across standard benchmarks, while exhibiting advanced multimodal reasoning abilities such as free-form image manipulation, future frame prediction, 3D manipulation, and world navigation. In the hope of facilitating further opportunities for multimodal research, we share the key findings, pretraining details, data creation protocal, and release our code and checkpoints to the community. The project page is at this https URL

Comments:	37 pages, 17 figures
Subjects:	Computer Vision and Pattern Recognition (cs.CV)
Cite as:	arXiv:2505.14683 [cs.CV]
	(or arXiv:2505.14683v2 [cs.CV] for this version)
	https://doi.org/10.48550/arXiv.2505.14683

Submission history

From: Kunchang Li [view email]
[v1] Tue, 20 May 2025 17:59:30 UTC (29,521 KB)
[v2] Fri, 23 May 2025 20:50:51 UTC (29,521 KB)

Computer Science > Computer Vision and Pattern Recognition

Title:Emerging Properties in Unified Multimodal Pretraining

Submission history

Access Paper:

References & Citations

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators

Computer Science > Computer Vision and Pattern Recognition

Title:Emerging Properties in Unified Multimodal Pretraining

Submission history

Access Paper:

References & Citations

BibTeX formatted citation

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators